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深度 学 习 在 图 像 分 类 中 的 应 用 
摘 要 


随 着 深度 学 习 技术 的 芝 勃 发 展 , 其 在 网 像 分 类 领域 的 广泛 应 用 为 
计算 机 视觉 领域 带 来 了 革命 性 的 变化 。 本 文 聚 焦 于 深度 学 习 在 图 像 分 
类 中 的 应 用 , 以 CIFAR-10 数据 集 为 基础 , 通过 卷 积 神经 网 络 (CNN) 
构建 不 同 模型 ， 对 图 像 进行 了 分 类 精度 评估 。 我 还 采用 了 ResNet 等 
著名 模型 ， 对 它们 在 CIFAR-10 数据 集 上 的 分 类 性 能 进行 了 评估 。 为 
深入 研究 模型 的 特性 ,我们 在 实验 中 引入 了 不 同 的 激活 函数 ， 并 通过 
对 比 它们 在 分 类 任务 中 的 表现 ， 揭 示 了 激活 函数 对 模型 性 能 的 影响 。 
此 外 ,通过 调整 训练 轮 次 等 超 参 数 ， 我 们 系统 地 研究 了 模型 在 不 同 训 
练 轮 次 下 的 分 类 准确 度 。 在 实验 中 , 我 发 现 了 训练 的 轮 次 并 不 是 越 多 
越 好 ， 可 能 会 出 现 过 拟 合 的 现象 ， 但 是 我 通过 调整 模型 ， 并 增加 
Dropout 层 在 一 定 程度 上 解决 了 过 拟 合 的 问题 , 同时 我 通过 模型 的 优 
化 调整 使 得 我 的 分 类 精度 也 得 到 了 很 大 的 提升 ， 最 高 可 达到 0.7509。 
在 不 断 的 优化 过 程 中 , 我 对 于 深度 学 习 在 图 像 分 类 中 的 前 景 越 来 越 有 
言 心 ， 我 也 将 继续 在 这 个 方 辐 不断 深入 研究 。 
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Application of deep learning in image 
classification 


Abstract 


With the rapid development of deep learning technology, its wide 
application in the field of image classification has brought revolutionary 
changes to the field of computer vision. This paper focuses on the 
application of deep learning in image classification. Based on CIFAR-10 
data set, different models are constructed by convolutional neural network 
(CNN) to evaluate the classification accuracy of images. I also took well- 
known models such as ResNet and evaluated their classification 
performance on the CIFAR-10 dataset. In order to further study the 
characteristics of the model, we introduce different activation functions in 
the experiment, and reveal the effect of activation functions on the model 
performance by comparing their performance in the classification task. In 
addition, we systematically study the classification accuracy of the model 
under different training rounds by adjusting hyperparameters such as 
training rounds. In the experiment, I found that the number of training 
rounds is not always better, and there may be overfitting phenomenon. 
However, I solved the overfitting problem to some extent by adjusting the 
model and adding the Dropout layer. At the same time, through the 
optimization and adjustment of the model, my classification accuracy has 
also been greatly improved, up to 0.7509. In the process of continuous 
optimization, I am more and more confident about the prospect of deep 
learning in image classification, and I will continue to further study in this 


direction. 
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近年 来 , 深度 学 习 涌 现在 人 们 的 视野 之 中 , 同时 各 种 硬件 运算 设备 的 性 能 在 
飞速 地 提升 ， 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 也 促进 了 图 
像 分 类 、 目 标 检测 等 计算 机 视觉 相关 领域 的 芝 勃 发 展 ， 并 已 逐渐 超越 并 取代 传统 
的 各 种 图 像 处 理 方法 。 卷 积 神经 网 络 的 想法 源 于 生物 的 视觉 机 制 ， 它 避免 了 繁琐 
的 人 工 特征 提取 , 在 通过 卷 积 层 进 行 纹理 、 形 态 等 物体 的 浅 层 特征 提取 的 同时 还 
可 以 获取 深层 语义 特征 ， 并 可 以 端 到 端 直接 输出 分 类 结果 。 

除了 卷 积 神经 网 络 (CNN), 还 有 许多 其 他 类 型 的 神经 网 络 和 深度 学 习 架 构 ， 
每 种 都 设计 用 于 解决 不 同类 型 的 问题 。 比 如 说 循环 神经 网 络 (RNN) ， 它 适用 于 
处 理 序列 数据 ， 具 有 记忆 和 上 下 文理 解 能 力 。 主 要 用 于 自然 语言 处 理 、 语 音 识别 
等 任务 。 还 有 生成 对 抗 网 络 (GAN) ， 它 由 生成 器 和 判别 器 组 成 ,用 于 生成 逼真 
的 数据 ， 如 图 像 、 音 频 等 。GAN 被 广泛 用 于 图 像 生 成 、 风 格 迁 移 等 领域 。 

这 些 架 构 的 选择 取决 于 任务 的 性 质 , 数据 的 特征 以 及 计算 资源 的 限制 。 深度 
学 习 领 域 仍然 在 不 断 发 展 , 新 的 架构 和 模型 不 断 涌现 ， 以 更 好 地 解决 各 种 实际 问 
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第 1 章 绪论 


图 像 分 类 作为 计算 机 视觉 领域 的 经 典 问 题 之 一 ， 一 直 以 来 都 受到 广泛 关注 。 
近年 来 ， 随 着 深度 学 习 技 术 的 崛起 ， 特 别 是 卷 积 神经 网 络 (CNN) 的 成 功 应 用 ， 
图 像 分 类 在 准确 性 和 效率 方面 取得 了 显著 的 进展 。 

在 深度 学 习 兴 起 之 前 , 图 像 分 类 主要 依赖 于 手工 设计 的 特征 提取 和 传统 的 机 
器 学 习 方 法 ， 如 文 持 向 量 机 〈SVM) 和 随机 森林 。 这 些 方法 在 处 理 复杂 的 图 像 数 
据 时 往往 受到 特征 设计 和 泛 化 能 力 的 限制 , 难以 适应 大 规模 和 多 类 别 的 图 像 分 类 
任务 。 

卷 积 神经 网 络 (CNN) 的 出 现 使 得 图 像 分 类 的 发 展 更 加 快速 ， 卷 积 神经 网 络 
成 为 解决 图 像 分 类 问题 的 重要 工具 。CNN 通过 多 层次 的 卷 积 和 池 化 操作 ， 可 以 
自动 学 习 图 像 的 层次 化 特征 表示 ， 从 而 在 不 同 层次 上 捕捉 到 图 像 的 语义 信息 。 这 
种 端 到 端的 学 习 方式 使 得 模型 能 够 更 好 地 理解 图 像 的 结构 和 内 容 。 同 时 CNN 的 
多 层次 结构 使 得 模型 能 够 层次 化 地 学 习 图 像 的 特征 。 底 层 的 卷 积 层 能 够 捕捉 低级 
别 的 边缘 和 纹理 特征 ， 而 深层 的 卷 积 层 则 能 够 学 习 到 更 为 抽象 和 语义 上 的 特征 。 
这 种 层次 化 的 特征 学 习 有 助 于 提高 图 像 分 类 的 准确 性 。 

同时 大 规模 图 像 数 据 集 的 可 用 性 , 如 ImageNet, 也 大 大 推动 了 图 像 分 类 的 发 
展 。 这 些 数据 集 提供 了 数 百 万 张 带 有 丰富 标注 的 图 像 ， 为 深度 学 习 模型 提供 了 充 
足 的 训练 样本 ， 使 得 模型 能 够 学 习 到 更 具 泛 化 性 的 特征 表示 。 

预 训练 的 深度 学 习 模 型 ， 如 VGG、ResNet 和 EfficientNet 等 ,通过 在 大 规模 
数据 上 进行 预 训练 ， 可 以 迁移 到 特定 的 图 像 分 类 任务 中 。 这 种 迁移 学 习 的 方法 使 
得 在 相对 较 小 的 数据 集 上 也 能 取得 显著 的 性 能 提升 ， 提 高 了 模型 的 泛 化 能 

随 着 深度 学 习 技 术 的 发 展 ， 图 像 分 类 研究 逐渐 涉及 到 多 模 态 学 习 ， 即 同时 处 
理 图 像 、 文 本 和 其 他 模 态 的 信息 。 这 拓展 了 图 像 分 类 任务 的 范畴 ,使 得 模型 能 够 
更 全 面 地 理解 和 处 理 多 源 信 息 。 

深度 学 习 在 图 像 分 类 中 的 应 用 已 经 取得 了 显著 的 成 果 , 不 仅 提高 了 分 类 准确 
度 ， 而 且 拓 展 了 图 像 分 类 的 研究 范围 。 未 来 ， 随 着 深度 学 习 技 术 的 不 断 发 展 ， 回 
像 分 类 领域 将 持续 迎 来 新 的 挑战 和 机 遇 。 


1.2 CNN 在 图 像 分 类 中 的 应 用 


随 着 数字 图 像 的 快速 增长 , 传统 的 图 像 分 类 方法 在 处 理 复杂 场景 和 大 规模 数 
据 集 时 面临 挑战 。 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 在 图 像 
分 类 任务 中 取得 了 巨大 成 功 ， 其 应 用 涵盖 了 许多 领域 。 以 下 是 CNN 在 图 像 分 类 
中 的 主要 应 用 方面 : 

特征 学 习 : CNN 通过 卷 积 层 和 池 化 层 实现 对 图 像 特征 的 学 习 。 卷 积 层 通 过 
卷 积 核对 图 像 进行 滤波 , 捕捉 到 局 部 的 视觉 特征 , 而 池 化 层 则 降低 特征 的 空间 分 
HRB, 保留 主要 的 信息 。 这 种 层次 化 的 特征 学 习 有 助 于 网 络 理解 图 像 的 结构 和 内 
容 。 

层次 化 表示 : CNN 的 多 层 结构 允许 网 络 逐 渐 学 习 更 高 级 、 抽 象 的 图 像 特征 。 
底层 的 卷 积 层 可 以 捕捉 边缘 和 纹理 等 低级 特征 , 而 深层 的 卷 积 层 则 能 够 学 习 到 更 
抽象 和 语义 上 的 特征 ， 有 助 于 更 准确 地 进行 分 类 。 

局 部 感受 野 : CNN 采用 局 部 感受 野 的 方式 处 理 图 像 ， 即 每 个 神经 元 仅 关 注 
输入 图 像 的 一 小 部 分 区 域 ， 而 不 是 整个 图 像 。 这 样 的 设计 使 得 网 络 对 于 平移 、 旋 
转 和 缩放 等 变换 具有 一 定 的 不 变性 ， 提 高 了 模型 的 泛 化 能 

参数 共享 :CNN 中 的 参数 共享 机 制 使 得 模型 具有 相对 较 少 的 参数 数量 ， 减 
少 了 训练 所 需 的 数据 量 , 并 降低 了 过 拟 合 的 风险 。 共享 的 卷 积 核能 够 在 整个 图 像 
上 检测 相似 的 特征 ， 提 高 了 模型 的 统计 效能 。 

全 局 平均 池 化 : 在 CNN 的 最 后 一 层 通 常 采 用 全 局 平均 池 化 ， 将 整个 特征 图 
降 维 为 一 个 标量 , 然后 通过 全 连接 层 进行 分 类 。 这 种 池 化 方式 能 够 更 好 地 保留 图 
像 的 全 局 信息 ， 有 助 于 网 络 对 整体 特征 进行 分 类 。 

迁移 学 习 : 预 训练 的 CNN 模型 在 大 规模 图 像 数 据 上 学 到 了 丰富 的 特征 表示 ， 
可 以 通过 迁移 学 习 的 方式 , 将 这 些 学 到 的 特征 用 于 特定 任务 的 分 类 。 这 种 方法 使 
得 在 相对 较 小 的 数据 集 上 也 能 取得 良好 的 分 类 性 能 。 

CNN 在 图 像 分 类 任务 中 的 应 用 不 仅 提高 了 分 类 准确 度 ， 而 且 在 计算 机 视觉 
领域 的 众多 应 用 中 取得 了 突出 的 成 果 , 如 人 脸 识别 、 物 体检 测 、 医 学 影像 分 析 等 。 
由 于 其 强大 的 特征 学 习 能 力 ，CNN 已 成 为 图 像 分 类 任务 中 的 主流 模型 之 一 。 

1.3 主要 研究 工作 及 章节 安排 


本 篇 论文 一 共 分 为 四 章 ， 下 面 将 简要 介绍 每 章 的 安排 。 
第 一 章 为 绪论 ， 介 绍 了 近年 来 深度 学 习 的 发 展 ， 以 及 CNN 在 图 像 分 类 中 的 
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应 用 。 

第 二 章 为 CIFAR-10 的 介绍 ， 主 要 介绍 了 CIFAR-10 的 来 源 ， 已 经 它 包 含 的 
图 像 的 数量 以 及 常见 的 用 途 。 

第 三 章 首先 介绍 了 卷 积 神经 网 络 的 一 些 概念 , 接 下 来 介绍 了 一 个 比较 典型 的 
模型 ResNet, 接 下 来 就 是 代码 实现 部 分 , 采用 了 不 同 的 训练 轮 次 , 不同 的 激活 函 
数 ， 以 及 不 同 的 模型 进行 了 分 类 精度 的 评估 和 分 析 。 

最 后 为 结论 , 总 结 了 本 文 在 研究 过 程 中 所 做 的 内 容 和 接 下 来 可 以 更 深入 进行 
研究 的 方向 。 


第 2 章 数据 集 介 绍 


2.1 CIFAR-10 


CIFAR-10 (Canadian Institute for Advanced Research - 10) 是 由 加 拿 大 高 级 研 
究 所 于 2004 年 创建 的 经 典 图 像 分 类 数据 集 。 该 数据 集 的 产生 旨 在 促进 机 器 学 习 
和 计算 机 视觉 领域 的 研究 ,为 算法 和 模型 提供 一 个 标准 化 的 测试 基准 。 目 前 已 经 
成 为 计算 机 视觉 和 机 器 学 习 社 区 中 最 常用 的 数据 集 之 一 。 

研究 人 员 通 常 使 用 CIFAR-10 来 开发 和 评估 卷 积 神经 网 络 CCNNs) 和 其 他 
深度 学 习 模型 ， 因 为 它 的 规模 适中 ,包含 多 个 类 别 。 它 被 作为 评估 图 像 分 类 算法 
能 力 的 标准 基准 。 

2.2 数据 集 组 成 


CIFAR-10 数据 集 包 含 60,000 张 32x32 像素 的 彩色 图 像 ， 分 为 10 个 不 同 
的 类 别 ， 每 个 类 别 有 6,000 张 图 像 。 这 10 个 类 别 分 别 是 : 飞机 (airplane)、 汽 
车 (automobile), "328 (bird). 3H (cat). JÆ (deer). 4 (dog). FFE (forg)、 
I (horse). fit (ship). FÆ 〈truck)。 部 分 图 片 如 图 2-1 所 示 : 


图 2-1 CIFAR-10 各 种 类 图 像 展示 


CIFAR-10 数 据 集 被 分 为 训练 集 和 测试 集 , 其 中 有 50,000 张 图 像 用 于 训练 ， 


10,000 张 用 于 测试 。 每 个 图 像 都 带 有 一 个 标签 , 标明 它 属 于 这 10 个 类 别 中 的 哪 
一 个 ， 因 此 适用 于 监督 学 习 。 
2.3 常见 用 途 


CIFAR-10 主要 用 于 评估 和 比较 机 器 学 习 算 法 和 模型 在 图 像 分 类 任务 上 的 
性 能 。 研究 人 员 和 开发 者 经 常 使 用 这 个 数据 集 来 测试 新 的 图 像 分 类 算法 , 特别 是 
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卷 积 神经 网 络 (CNN) 等 深度 学 习 模 型 。 

同时 ，CIFAR-10 数据 集 为 深度 学 习 研 究 提 供 了 一 个 有 挑战 性 的 任务 ， 它 的 
挑战 在 于 图 像 分 辨 率 相对 较 低 ， 且 图 像 中 的 对 象 可 能 出 现在 不 同 的 位 置 和 姿势 ， 
增加 了 分 类 的 难度 。 研究 人 员 利 用 CIFAR-10 探索 不 同 的 神经 网 络 架构 、 损 失 函 
数 和 优化 方法 ， 以 提高 模型 对 图 像 分 类 任务 的 性 能 。 

此 外 ，CIFAR-10 数据 集 也 被 广泛 用 于 迁移 学 习 的 研究 。 由 于 其 相对 小 的 规 
模 和 多 样 性 , 研究 人 员 可 以 使 用 CIFAR-10 预 训练 的 模型 , 然后 将 这 些 模型 迁移 
到 其 它 更 大 、 更 复杂 的 图 像 数据 集 上 ， 从 而 提高 模型 的 泛 化 能 

总 体 而 言 ，CIFAR-10 数据 集 在 机 器 学 习 中 发 挥 着 重要 作用 ， 为 研究 人 员 和 
从 业者 提供 了 一 个 共同 的 基准 ， 推 动 了 图 像 分 类 领域 的 研究 和 发 展 。 


第 3 章 基于 PyTorch 的 图 像 分 类 研究 


3.1 图 像 分 类 相关 理论 


3.1.1 卷 积 神经 网 络 

卷 积 神经 网 络 (CNN) 是 用 来 对 如 图 像 、 视 频 等 可 以 被 看 作 多 维 网 格 的 数据 
进行 特征 提取 的 网 络 结构 ， 它 具有 稀 玻 连接 、 参 数 共享 等 特点 ,在 计算 机 视觉 领 
域内 的 检测 、 分 类 等 各 项 任务 中 都 取得 优越 的 成 果 。 以 卷 积 层 、 池 化 层 以 及 激活 
函数 组 合 的 卷 积 操作 可 以 构建 出 一 个 完整 的 CNN 网 络 ， 完 成 对 输入 数据 的 特 
征 提 取 ， 再 经 由 全 连接 层 和 目标 函数 完成 指定 的 视觉 任务 。 卷 积 神经 网 络 参 数 更 
新 方式 采用 反 向 传播 算法 将 计算 出 的 残 差 结果 逐 层 向 前 传递 , 更 新 网 络 参 数 直 至 
网 络 收敛 。 

(1) 卷 积 层 

卷 积 层 是 CNN 的 核心 组 件 ， 通 过 卷 积 操作 可 以 提取 图 像 的 局 部 特征 ， 与 传 
统 神经 网 络 中 的 矩阵 乘法 不 同 , 卷 积 方式 只 需要 通过 卷 积 核对 输入 单元 进行 稀 玻 
连接 ， 局 部 交互 。 由 于 图 像 数据 像素 相 邻 部 分 的 相关 性 更 强 ， 像 素 不 相 邻 部 分 的 
相关 性 较 弱 , 因此 卷 积 的 稀疏 连接 特性 使 其 只 需要 关注 像素 邻 域 信 息 就 可 以 有 效 
提取 特征 ， 并 且 所 需 存储 的 模型 参数 更 小 ,运算 的 效率 也 更 高 。 卷 积 运算 如 图 3- 
1 Pras: 


C 

if 

1 

元 

bw+cx 
+ey+fz 
dw+ex ew+fx 
+gy+hz +hy+iz 


图 3-1 卷 积 运算 过 程 


(2) 池 化 层 

经 由 卷 积 层 操 作 后 的 特征 再 使 用 激活 函数 激活 后 ,特征 图 像 尺 寸 往往 会 非常 
大 ， 而 池 化 层 的 作用 则 是 调整 输出 特征 图 的 尺度 。 池 化 操作 使 用 特征 图 中 某 一 
位 置 的 相 邻 特征 的 总 体 统计 特征 表示 特征 图 中 该 位 置 的 输出 , 这 样 可 以 使 得 特征 
图 的 通道 数 保持 不 变 但 尺度 缩小 ,模型 参数 量 也 会 相应 变 少 ， 从 而 提高 网 络 整体 
训练 的 效率 ， 和 常见 的 池 化 方式 有 最 大 池 化 、 平 均 池 化 等 。 

(3) 全 连接 层 

全 连接 层 负责 将 卷 积 层 提 取 的 特征 映射 到 最 终 的 输出 类 别 。 在 全 连接 层 中 ， 
每 个 神经 元 与 前 一 层 的 所 有 神经 元 相连 接 , 通过 学 习 权 重 和 偏 置 来 完成 特征 的 组 
合 和 分 类 。 
3.1.2 典型 图 像 分 类 算法 

Kaiming He 等 人 提出 的 ResNet 深度 残 差 网 络 是 非常 出 名 的 卷 积 神经 网 络 ， 
它 通 过 引入 残 差 块 和 跳跃 连接 的 设计 ， 成功 地 缓解 了 梯度 消失 的 问题 。 残 差 块 允 
许 信息 直接 传递 到 后 续 层 ,使 得 网 络 更 容易 学 习 到 恒 等 映 射 。 这 种 设计 使 得 在 训 
练 深度 网 络 时 梯度 能 够 更 顺畅 地 传播 , 更 容易 优化 。 跳 跃 连接 允许 信息 在 网 络 中 
直接 绕 过 中 间 层 ， 有 效 地 缓解 了 梯度 的 退化 问题 , 使 得 网 络 可 以 更 轻松 地 训练 到 
数 百 层 其 至 上 干 层 。 这 种 结构 的 引入 使 得 ResNet 能 够 成 功 训练 非常 深 的 神经 网 
络 ， 取 得 了 在 图 像 分 类 等 任务 上 的 显著 性 能 提升 。 网 络 核心 的 残 差 单元 如 图 3-2 
所 示 : 


x 
等 值 映射 


F(x) 


F(x)+x 


图 3-2 残 差 单元 
3.1.3 激活 函数 
在 深层 网 络 中 , 激活 函数 的 作用 是 为 了 实现 网 络 的 非 线性 特性 。 如 果 没 有 激 
活 函数 ,无 论 网 络 的 深度 有 多 少 ， 输 入 输出 之 间 都 可 以 使 用 线性 组 合 来 表示 ， 这 
样 就 无 法 体现 出 深度 网 络 与 原始 感知 机 之 间 的 区 别 , 因此 需要 使 用 激活 函数 来 调 


节 深 度 网 络 。 接 下 来 将 介绍 常见 的 Sigmoid 激活 函数 、ReLU 激活 函数 以 及 最 
近 在 图 像 任务 中 表现 出 色 的 Swish 激活 函数 。 
ReLU 激活 函数 是 G.Hinton 等 人 提出 的 , 是 至 今 仍 在 广泛 使 用 的 分 段 激 活 函 
数 ， 其 公式 为 : 
ReLU(x)=max(0,x) 
它 的 图 像 如 下 图 3-3 所 示 : 


ReLU Function 


51— ReLU 


Input 


图 3-3 ReLU 函数 图 像 


简 言 之 , 对 于 输入 x, 如 果 x 大 于 零 , ReLU 输出 x; 如 果 x 小 于 或 等 于 零 ， 


它 能 够 缓解 梯度 消失 的 问题 ， 同 时 运算 速度 非常 快 , 仅 需 要 确定 输入 的 值 与 
0 的 对 比 结果 即 可 ， 收 敛 速度 也 比 Sigmoid 更 快 。 但 它 也 有 缺点 ， 在 训练 过 程 
中 ， 某 些 神经 元 可 能 永远 不 会 被 激活 ， 称 为 “死亡 神经 元 "”。 这 可 能 导致 梯度 更 新 
停滞， 一 种 常见 的 解决 方法 是 使 用 Leaky ReLU 或 其 他 变 体 。 

总 体 而 言 ，ReLU 是 一 种 简单 而 有 效 的 激活 函数 ， 特 别 在 深度 学 习 中 取得 
很 好 的 效果 。 然 而 ， 在 菜 些 情况 下 ， 使 用 其 他 激活 函数 的 变 体 可 能 更 为 合适 ， 具 
体 选 择 通常 取决 于 任务 的 性 质 和 网 络 结构 的 要 求 。 

Leaky ReLU( 汇 漏 线 性 整流 单元 ) 是 ReLU 的 一 种 改进 版 本 , 旨 在 解决 ReLU 
可 能 出 现 的 “死亡 神经 元 ”问题 。Leaky ReLU 允许 负数 部 分 有 一 个 小 的 斜率 ， 使 
得 在 人 猴 数 输入 时 不 是 完全 截断 ， 从 而 提供 了 一 些 负数 的 输出 。 

Leaky ReLU 的 数学 表达 式 为 : 

Leaky ReLU(x)=max(ax,x) 


如 下 图 3-4 所 示 : 


Leaky ReLU Function 


547 —— Leaky ReLu (alpha=0.01) 


图 3-4 Leaky ReLU 函数 图 像 


其 中 ，a 是 一 个 小 的 正 数 ， 通 常设 置 为 接近 零 的 较 小 值 ， 如 0.01。 这 个 小 斜 
率 在 负数 部 分 引入 了 一 个 非 零 的 梯度 ， 有 助 于 在 训练 期 间 更 好 地 传递 梯度 ， 防 止 
某 些 神经 元 永远 不 被 激活 的 问题 ， 减 轻 了 ReLU 的 一 些 问 题 。 虽 然 Leaky ReLU 
减轻 了 “死亡 神经 元 ”问题 , 但 仍然 有 可 能 一 些 神经 元 在 训练 中 不 被 激活 。 在 这 种 
情况 下 ， 其 他 激活 函数 如 Parametric ReLU (PReLU) 等 可 能 是 更 好 的 选择 。 

在 实际 应 用 中 ，Leaky ReLU 经 常用 于 深度 学 习 模 型 的 隐藏 层 ， 但 具体 的 选 
择 可 能 取决 于 数据 集 和 任务 的 特性 。 

2017 年 谷歌 大 脑 提 出 了 Swish 激活 函数 ， 其 公式 为 : 

f(x) = x - Sigmoid(x) 


图 像 如 图 3-5 所 示 : 


Swish Function 


57 — swish 


0 
Input 


图 3-5 Swish 函数 图 像 
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这 个 激活 函数 非常 简 


单 只 需要 将 输入 乘 以 自己 的 Sigmoid 值 即 可 , 它 十 分 平 


fa, 非 单调 且 有 下 界 无 上 界 , 在 图 像 分 类 检测 任务 中 与 ReLU 激活 函数 相 比 有 着 
非常 显著 的 性 能 提升 。 
3.2 图 像 分 类 代码 实现 


3.2.1 数据 处 理 
我 使 用 的 数据 集 为 CIFAR-10, 是 从 https://www.cs.toronto.edu/~kriz/cifar.html 


这 个 网 站 下 载 的 。 解 压 后 可 以 看 到 文件 的 格式 如 图 3-6 所 示 : 


可 以 通 


D batches.meta 
E] data_batch_1 
Bi data_batch_2 
Bl data_batch_3 
E] data_batch_4 
Bi data_batch_5 


e readme.html 


D test_batch 


过 官方 给 出 的 方法 


2009/3/31 12:45 
2009/3/31 12:32 
2009/3/31 12:32 
2009/3/31 12:32 
2009/3/31 12:32 
2009/3/31 12:32 
2009/6/5 4:47 


2009/3/31 12:32 


图 3-6 CIFAR-10 解压 


进行 处 理 , 同时 通 


出 来 ， 同 时 输出 图 像 所 对 应 的 标签 。 这 部 分 我 通 
实现 ， 最 后 得 到 的 图 片 分 为 了 测试 集 和 训练 集 两 个 文件 夹 ， 分 别 命名 为 
test_cifar10、train_cifar10, 对 应 的 标签 我 分 别 存 为 了 testLables.csv、trainLables.csv， 

分 测试 集 的 图 片 以 及 标签 如 图 3-7、3-8 所 示 : 


EEA B c D E 
1 |Image Category 
2 1 cat 
3 2 ship 
4 3 ship 
= 4 airplane 
6 5 frog 
T 6 frog 
8 7 automobile 
9 8 frog 
10 9 cat 
11 10 automobile 
12 11 airplane 
13 12 truck 
14 13 dog 
15 14 horse 
16 15 truck 
Ir 16 ship 
18 17 dog 
19 18 horse 
20 19 ship 
21 20 frog 


图 3-7 测试 集 标签 
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META 文件 1KB 
文件 30,309 KB 
文件 30,308 KB 
文件 0,309 KB 
文件 30,309 KB 
文件 0,309 KB 
Microsoft Edge ... 1 KB 
文件 30,309 KB 


过 进一步 编写 代码 并 将 图 片 输出 


过 cifar 10.ipynb 这 部 分 代码 来 


图 3-8 测试 集 图 片 


处 理 后 的 图 片 和 标签 就 可 以 进行 训练 以 及 测试 使 用 了 。 接 下 来 将 处 理 好 的 
片 和 标签 放 到 对 应 的 文件 夹 下 ， 在 这 里 ， 我 放 到 了 imageclassification 中 的 temp 
文件 夹 下 。 
3.2.2 图 像 分 类 模型 

我 把 代码 放 在 了 ImageNet Classification.ipynb 这 个 文件 中 。 这 个 代码 的 主要 
部 分 为 模型 部 分 ， 我 的 模型 是 一 个 卷 积 神经 网 络 CCNN )， 输 入 数据 经 过 第 一 个 
卷 积 层 (self.conv1),， 然后 通过 ReLU 激活 函数 ， 接 着 经 过 最 大 池 化 层 (self.pool) 
进行 降 采 样 。 然 后 ,特征 图 经 过 第 二 个 卷 积 层 (self.conv2), 再 次 通过 ReLU 激活 
函数 , 最 后 再 经 过 一 次 最 大 池 化 层 (selfpooD 进行 降 采 样 。 池 化 后 的 特征 图 通过 
x.view(-1, 16*5*5) 操作 被 展 平 为 一 维 问 量 。 一 维 向 量 通过 两 个 全 连接 层 (self.fc1l 
和 self.fc2), 每 一 层 都 应 用 ReLU 激活 函数 。 最 终 , 通过 输出 层 (self fc3) 得 到 模 
型 的 输出 ， 对 应 于 每 个 类 别 的 得 分 。 模 型 的 结构 如 图 3-9 所 示 : 
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卷 积 层 1 


(self.conv1 ) 


| 
最 大 池 化 层 
(self.pool) 


| 
最 大 池 化 层 
(self.pool) 


| 
卷 积 层 2 


(self.conv2) 


全 连接 层 
(self.fc1) 


全 连接 层 
(self.fc2 ) 
| 
输出 层 
(self.fc3) 


图 3-9 模型 结构 


3.2.3 训练 以 及 评估 

我 把 训练 集中 的 50000 张 图 片 分 为 了 40000 张 训 练 集 和 10000 张 验 证 集 , 利 
用 验证 集 来 评估 训练 的 效果 。 

在 训练 中 , 通过 遍历 训练 集中 的 小 批量 数据 , 通过 前 向 传播 计算 模型 的 预测 
输出 , 然后 使 用 交叉 烂 损失 函数 衡量 预测 值 与 真实 标签 之 间 的 差异 。 接 着 进行 反 
向 传播 ， 通 过 梯度 下 降 优 化 器 调整 模型 参数 ， 以 最 小 化 损失 。 在 每 个 小 批量 训练 
H, 累积 损 失 值 并 定期 打印 训练 过 程 中 的 损失 。 最 后 ， 记 录 并 输出 最 后 一 个 小 批 
量 的 训练 损失 。 

我 把 所 有 的 测试 集 进行 了 分 批 次 预测 ， 预 测 的 结果 保存 到 了 submission.csv 
这 个 文件 中 ,并 通过 代码 比较 submission.csv 与 testLables.csv 中 的 标签 是 否 相同 ， 
最 后 计算 分 类 的 准确 度 。 这 是 训练 了 60 轮 的 模型 ， 使 用 随机 的 12 个 图 像 进行 分 
类 的 结果 ， 如 图 3-6 所 示 : 
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frog 
truck 
horse 

ship 

horse 

dog 
airplane 
airplane 
deer 
airplane 
automobile 
automobile 


3-6 图 像 分 类 示例 


从 图 中 可 以 看 出 ， 这 12 张 图 片 中 ， 有 8 个 图 片 的 标签 是 正确 的 ， 分 类 的 效 
果 还 是 能 够 接受 的 。 

在 不 同 的 训练 次 数 下 ， 准 确 度 也 在 不 断 改 变 。 不 同 训练 的 轮 数 对 应 的 分 类 准 
确 率 如 表 3-1 所 示 : 


表 3-1 不 同 轮 数 对 应 分 类 精度 表 


训练 轮 数 分 类 精度 
10 0.5744 
30 0.6324 
60 0.5765 
100 0.5797 


可 以 看 到 分 类 的 精度 在 训练 轮 次 为 30 的 时 候 还 是 不 错 的 ， 但 是 分 类 效果 并 
不 是 随 着 训练 轮 次 的 增加 而 增加 ， 可 能 在 训练 轮 次 增加 后 出 现 了 过 拟 合 ， 这 个 需 
要 在 后 面 的 模型 改进 中 多 加 关注 。 
3.2.3 激活 函数 改进 

接 下 来 我 使 用 了 不 同 的 激活 函数 进行 了 分 类 精度 评估 ， 我 接 下 来 使 用 了 
Leaky ReLU、Swish 这 两 个 激活 函数 来 来 进行 实验 ， 其 中 Leaky ReLU 的 w 设 置 
为 了 0.01. XH Leaky ReLU、Swish 激活 函数 的 代码 我 分 别 保存 到 了 ImageNet 
Classification Leak.ipynb、ImageNet Classification Swish.ipynb 这 个 文件 中 ， 运 行 
后 分 别 得 到 了 不 同 训练 轮 数 下 的 分 类 精度 。 
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表 3-2 分 类 精度 表 


训练 轮 数 Leaky ReLU Swish 
10 0.61 0.5787 
30 0.6292 0.6193 
60 0.5917 0.5872 
100 0.5915 0.5985 


从 表 3-2 中 可 以 看 出 ，Leaky ReLU 在 较 少 的 训练 轮 次 下 分 类 效果 还 是 很 不 
HW, Æ 10 轮 次 的 训练 下 就 能 达到 0.61 的 分 类 精度 。 同 时 使 用 Leaky ReLU 这 
个 激活 函数 后 ,整体 的 分 类 精度 相对 于 ReLU 有 一 定 的 提升 。 同 时 在 这 些 激活 函 
数 中 仍然 存在 随 着 轮 次 的 增加 ， 分 类 效果 反而 下 降 的 情况 ,所 以 问题 应 该 出 现在 
模型 部 分 ， 在 接 下 来 的 模型 改进 中 我 将 会 采取 措施 来 改进 。 


3.2.4 模型 改进 


由 于 前 面 出 现 了 随 着 训练 轮 次 增加 ， 而 分 类 效果 下 降 的 问题 ， 我 通过 进一步 
调整 模型 ， 增 加 了 Dropout 层 ， 以 0.5 的 概率 进行 神经 元 的 随机 失 活 ， 有 助 于 防 
止 过 拟 合 。 调 增 后 的 代码 我 放 到 了 Improve.ipynb 中 ， 模 型 代码 如 图 3-7 所 示 : 


import torch.nn as nn 


import torch.nn.functional as F 


class Net(nn.Module): 


def 


__init__(self): 

super(Net, self). init__() 

self.convl = nn.Conv2d(3, 32, 3, padding=1) 
self.conv2 = nn.Conv2d(32, 64, 3, padding=1) 
self.conv3 = nn.Conv2d(64, 128, 3, padding=1) 
self.pool = nn.MaxPool2d(2, 2) 

self.fcl = nn.Linear(128 * 4 * 4, 512) 
self.fc2 = nn.Linear(512, 256) 

self.fc3 = nn.Linear(256, 10) 

self.dropout = nn.Dropout(@.5) 


forward(self, x): 

x = self.pool(F.relu(self.conv1(x))) 
x = self.pool(F.relu(self.conv2(x))) 
x = self.pool(F.relu(self.conv3(x))) 
x = x.view(-1, 128 * 4 * 4) 

x = F.relu(self.fc1(x)) 

x = self.dropout(x) 

x = F.relu(self.fc2(x)) 

x = self. fc3(x) 
m 


# HBR! 


net = Net() 


图 3-7 调 增 后 模型 


卷 积 层 1 接收 输入 图 像 ， 通 过 3x3 的 卷 积 核 提 取 32 个 特征 图 。 通 过 ReLU 
激活 函数 后 ， 特 征 图 被 传递 给 池 化 层 。 

卷 积 层 2 接收 上 一 层 的 特征 图 ， 通 过 3x3 的 卷 积 核 提取 64 个 特征 图 。 通 过 
ReLU 激活 函数 后 ， 特 征 图 被 传递 给 池 化 层 。 

卷 积 层 3 接收 上 一 层 的 特征 图 , 通过 3x3 的 卷 积 核 提取 128 个 特征 图 。 通 过 
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ReLU 激活 函数 后 ， 特 征 图 被 传递 给 池 化 层 。 

全 连接 层 1 将 经 过 卷 积 层 和 池 化 层 的 特征 图 展 平成 一 维 向 量 , 然后 通过 全 连 
接 层 ， 将 其 映射 到 一 个 512 维 的 特征 空间 。 这 一 步 的 激活 函数 是 ReLU。 

全 连接 层 2 输入 为 512 维 的 特征 ， 输 出 为 256 维 ， 同 样 使 用 ReLU 激活 函 


全 连接 层 3 输入 为 256 维 的 特征 ， 输 出 为 10 维 ， 对 应 于 分 类 任务 的 类 别 数 


由 
o 


最 大 的 改动 是 增加 了 Dropout 层 ， 位 于 全 连接 层 之 间 ， 以 0.5 的 概率 对 神经 
元 进行 随机 失 活 。 这 有 助 于 防止 过 拟 合 。 

最 后 的 输出 层 是 一 个 全 连接 层 ， 输 出 为 10 维 ， 对 应 于 图 像 分 类 任务 中 的 10 
个 类 别 。 在 这 里 不 使 用 激活 函数 ， 因 为 这 是 一 个 多 类 别 分 类 问题 ， 通 常 在 损失 函 
数 中 集成 了 softmax 激活 。 

这 个 模型 通过 卷 积 层 和 池 化 层 提取 图 像 的 特征 , 然后 通过 全 连接 层 进行 分 类 。 
Dropout 层 有 助 于 防止 过 拟 合 。 整 个 过 程 通过 前 向 传播 完成 ， 其 中 每 个 层 的 输出 
都 是 下 一 层 的 输入 。 


使 用 改动 后 的 模型 进行 分 类 ， 可 以 看 到 分 类 结果 如 表 3-3 所 示 : 
表 3-3 不 同 模型 分 类 精度 表 


训练 轮 数 原 模型 (ReLU) 分 类 精度 改进 后 模型 分 类 精度 
10 0.5744 0.6856 
30 0.6324 0.7344 
60 0.5765 0.7369 
100 0.5797 0.7509 


可 以 看 到 , 改进 后 的 模型 分 类 精度 的 得 到 了 明显 的 提高 , 在 100 轮 次 的 训练 
下 ， 分 类 精度 可 以 达到 0.7509， 同 时 过 拟 合 问题 也 得 到 了 解决 ， 由 于 设备 限制 ， 
这 里 不 再 继续 增加 训练 轮 次 ， 但 是 分 类 精度 有 随 着 训练 批 次 继续 增加 的 趋势 。 
3.2.5 ResNet 模型 

接 下 来 我 使 用 了 ResNet 模型 进行 分 类 效果 评估 ，ResNet 模型 的 代码 放置 在 
了 ResNet.ipynb 中 并 进行 训练 ， 得 到 的 分 类 精度 表 如 表 3-4 所 示 : 
表 3-4 ResNet 模型 分 类 精度 表 

训练 轮 数 原 模型 (ReLU) 分 类 精度 ResNet 模型 分 类 精度 

10 0.5744 0.7088 

归于 设备 的 限制 ， 我 仅仅 使 用 了 10 轮 次 进行 训练 ， 可 以 看 到 最 后 得 到 的 分 
类 效果 相对 于 原 模型 还 是 有 很 大 的 提升 , 达到 了 0.7088。 同 时 相对 于 改进 过 的 模 
型 Improve 也 是 提升 了 0.0232. 


D 
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3.3 BA) 


在 以 上 的 优化 实验 中 ,我 不 断 改进 模型 ， 使 用 不 同 的 激活 函数 和 训练 轮 次 来 
提升 图 像 的 分 类 效果 ， 在 整个 实验 中 ， 我 得 到 的 分 类 效果 最 好 的 模型 为 Improve 
这 个 模型 训练 了 100 次 , 得 到 的 准确 率 为 0.7509， 同 时 这 个 模型 的 分 类 效果 随 着 
训练 轮 次 的 增加 还 在 不 断 提升 ,但 是 由 于 设备 的 限制 , 我 没有 继续 增加 训练 轮 次 。 
后 面 如 果 有 更 好 的 设备 ， 可 以 继续 使 用 这 个 模型 进行 改进 ， 同 时 可 以 利用 GPU 
的 高 速 的 计算 性 能 来 减少 训练 所 需要 的 时 间 。 

本 文中 使 用 的 所 有 代码 ， 都 放 到 了 
https://github.com/LAS666/DeepLearingCode.git 这 个 仓库 。 
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结论 


在 本 文中 , 我 最 开始 使 用 了 一 个 简单 的 卷 积 神经 网 络 构建 的 模型 , 但 是 它 的 
效果 并 不 理想 , 同时 在 训练 轮 次 增 大 的 时 候 会 产生 过 拟 合 现 象 , 我 通过 改变 它 的 
激活 函数 ， 发 现 仍 然 没 有 解决 这 个 问题 ， 在 接 下 来 ， 我 修改 了 自己 使 用 的 模型 ， 
增加 了 Dropout 层 ， 并 改变 了 模型 的 结构 ， 接 下 来 增加 训练 轮 次 分 类 效果 逐步 提 
高 ， 在 一 定 程度 上 解决 了 过 拟 合 问题 ， 同 时 优化 后 的 模型 的 分 类 效果 比 原始 模型 
要 好 很 多 ， 在 100 轮 次 的 训练 下 可 以 达到 0.7509。 这 个 分 类 效果 还 是 很 不 错 的 。 

通过 上 述 的 一 系列 实验 已 经 模型 的 优化 , 我 对 于 基于 深度 学 习 的 图 像 分 类 更 
加 的 了 解 了 ， 同 时 我 也 看 到 了 它 的 前 景 ， 未 来 一 定 会 涌现 出 更 多 的 架构 和 模型 ， 
分 类 效果 也 将 不 断 提高 ， 我 也 将 继续 对 于 这 个 方向 的 研究 。 
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